ارائه یک مدل متن کاوی مبتنی بر یادگیری نیمه نظارتی

thesis
abstract

محبوبیت وب و حجم زیاد مستندات متنیِ الکترونیکی موجود، باعث افزایش نیاز به جستجو برای استخراج دانش نهان از مجموعه ی مستندات متنی شده است. بنابراین، امروزه مسئله ی متن کاوی در زمینه های متعددی از جمله پزشکی، زیست-فناوری، اقتصاد و فناوری اطلاعات مورد توجه قرار گرفته است. متن کاوی قادر است پردازش هایی مانند طبقه بندی، خوشه بندی، خلاصه سازی و استخراج اطلاعات متنی را پوشش دهد. طبقه بندی متون به شیوه ا ی مناسب با میزان خطای کم و تعمیم پذیری بالا یکی از موضوعات مهم در حوزه ی متن کاوی است. یکی از مهم ترین چالش ها در طبقه بندی متون، حجم زیاد مشخصه های مستخرج از اطلاعات متنی می باشد. یادگیری از داده هایی که مشخصه های زیادی دارند نه تنها باعث افزایش هزینه های محاسباتی می شود، بلکه کارایی یادگیری را نیز کاهش می دهد. بر این اساس استفاده از روش های مناسب انتخاب مشخصه از اهمیت ویژه ای در این حوزه برخوردار می باشد. در این راستا، در پژوهش انجام شده یک روش انتخاب مشخصه های توکار برای حل این چالش پیشنهاد شده است که نتایج بهتری را نسبت به روش های رایج می دهد. بهره گیری از روش های یادگیری با نظارت، که از مثال های آموزشی بر چسب دار استفاده می کنند، به عنوان یکی از رویکردهای سنتی جهت طبقه بندی متون مطرح است. برای انجام این نوع یادگیری با دقتی منطقی، وجود تعداد کافی از مثال های آموزشی برچسب دار ضروری است. بدین منظور به فردی خبره نیاز است که به هر سند برچسبی نسبت دهد؛ که این کار فرآیندی خسته کننده، زمانبر و پر هزینه می باشد. بنابراین تأمین تعداد کافی از مثال های آموزشی برچسب دار عملی غیر ممکن است. در مقابل، اسناد بدون برچسب اغلب در حجم زیاد قابل دسترس هستند. بنابراین، رویکرد موثر و عملی دیگر در یادگیری استفاده از اسناد برچسب دار به همراه اسناد بدون برچسب در زمان یادگیری می باشد، این ایده مبنای اصلی رویکرد یادگیری نیمه نظارتی را تشکیل می دهد. در این حالت، الگوریتم های یادگیری می توانند از داده های بدون برچسب استفاده کنند، که اغلب منتهی به تابع طبقه بندی دقیق تری می شود. در این پژوهش، روشی مبتنی بر یادگیری تجمیعی و رویکرد خودآموزی برای انجام یادگیری نیمه نظارتی پیشنهاد شده است که بر اساس آزمون های انجام شده موجب بهبود کارایی یادگیری نیمه نظارتی در زمینه ی طبقه بندی متون شده است.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

ارائه مدلی برای استخراج اطلاعات از مستندات متنی، مبتنی بر متن کاوی در حوزه یادگیری الکترونیکی

هنگامی که شبکه های کامپیوتری ستون اصلی علم و اقتصاد شد، حجم زیادی از مستندات در دسترس قرار گرفتند. به همین منظور، برای استخراج اطلاعات مفید از روش های متن کاوی استفاده می شود. متن کاوی یک حوزه پژوهشی مهم در کشف اطلاعات ناشناخته، فرضیات، و حقایق جدید به وسیله استخراج اطلاعات از اسناد مختلف است. همچنین متن کاوی آشکار کردن اطلاعات پنهان با استفاده از روشی است که در یک طرف توانایی مقابله با تعداد ز...

full text

یک روش مبتنی بر یادگیری نیمه نظارتی برای طبقه بندی داده های چند رابطه ای

یکی از زمینه های کاربردی روش های یادگیری ماشین و تشخیص الگو در زمینه ی تجارت هوشمند برای سازمان ها می باشد. روش های تجارت هوشمند سازمان ها را قادر می سازد که تحلیل خردمندانه ای داشته باشند و تصمیم های به موقع و هوشمندانه اخذ کنند که تغییرات قابل ملاحظه ای در رقابت خود و شرایط بازار ایجاد کنند. بنابراین کاوش دانش روی داده های واقعی با استفاده از روش های یادگیری ماشین بسیار پرارزش می باشد. هرچند،...

ارائه یک مدل داده کاوی جهت آشکارسازی ناهنجاری درپرتاب ماهواره

آشکارسازی ناهنجاری، یافتن الگو‌ها در داده‌هایی است که از رفتار مورد انتظاری تبعیت نمی‌‌کنند. توسعه فناوری‌‌های آشکارسازی ناهنجاری و تشخیص خطا به‌صورت هوشمند، برای حامل پرتاب ماهواره به‌دلیل محیط سخت، دور و غیرقطعی، به‌عنوان یک مسئله کاملاً مهم و قابل ‌توجه در صنعت هوافضا مطرح است. مدل پایش فعلی، با نظارت افراد خبره از طریق نمایش اطلاعات تله‌‌متری به‌کمک یک واسط گرافیکی انجام می‌شود. این رویکرد، ...

full text

یادگیری نیمه نظارتی کرنل مرکب با استفاده از تکنیک‌های یادگیری معیار فاصله

Distance metric has a key role in many machine learning and computer vision algorithms so that choosing an appropriate distance metric has a direct effect on the performance of such algorithms. Recently, distance metric learning using labeled data or other available supervisory information has become a very active research area in machine learning applications. Studies in this area have shown t...

full text

ارائه یک مدل نیمه- اتوماتیک مبتنی بر آنالیز شیءگرا به منظور تهیه نقشه پراکنش زمین‌لغزش (مطالعۀ موردی: از حوزۀ آبخیزوازرود)

نخستین گام در مطالعات حساسیت و خطر زمین‌لغزش، تهیه نقشه پراکنش زمین‌لغزش‌ها است. روش‌ معمول در تهیه نقشه-های زمین‌لغزش شامل مطالعات میدانی به همراه تفسیر عکس-های هوایی می‌باشد. تکنیک‌های نوین و نوظهور سنجش از دوری، با استفاده از تصاویر ماهواره‌ای منجربه تسهیل تولید نقشه‌های زمین‌لغزش و کاهش زمان مورد نیاز شده‌است. در تحقیق حاضر به منظور شناسایی زمین‌لغزش‌های بخشی از رشته کوه‌های البرز میانی در ...

full text

ایجاد یک مدل پیش­ آگهی مبتنی بر داده­ کاوی برای پیش­ بینی عود مجدد سرطان پستان

مقدمه: سرطان پستان یکی از شایع‌ترین انواع سرطان و شایع‌ترین نوع بدخیمی در زنان ایرانی است که اخیرا روند رو به رشدی داشته است. در مبتلایان به این بیماری همواره احتمال عود مجدد وجود دارد. عوامل زیادی میزان این احتمال را افزایش یا کاهش می‌دهند. داده‌کاوی از روش‌هایی است که در تشخیص یا پیش‌بینی سرطان‌ها به‌کار می‌رود و یکی از بیشترین کاربردهای آن، پیش‌بینی عود مجدد سرطان است. روش: در این مطالعه گذش...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023